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方式 接 入 互联 网 ， 产 生 了 大 量 的 行为 数据 。 在 浩如烟海 的 信息 户 行为 数据 的 分 析 ， 控 掘 用 户 自 身 都 未 意识 到 的 新 兴趣 点 ， 并 
j 户 选择 自己 需要 的 信息 成 本 不 断 提升 ， 尽 管 搜索 引擎 在 日 会 随 着 用 户 需求 的 变化 进行 动态 调整 ， 降 低 用 户 信息 搜集 的 
一 定 程度 上 解决 了 这 个 问题 ， 但 是 搜索 引擎 存在 着 两 个 方面 的 。 成 本 ; 男 一 方面 ， 对 于 商品 或 服务 提供 商 来 说 ， 为 用 户 做 的 推 
一 是 为 不 同 的 用 户 只 能 提供 相同 的 搜索 排序 结果 ; 二 是 。 荐 越 准确 ， 用 户 的 使 用 频率 也 就 越 高 ， 能 从 高 忠诚 度 的 用 
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摘 要 : 如 何 评价 协同 过 滤 推 荐 质量 ， 在 将 被 推荐 商品 推送 给 用 户 之 前 进行 推荐 结果 质量 评估 ， 是 一 个 值得 研究 的 问 
题 。 提 出 了 一 种 基于 经 验 分 布 和 KL 散 度 的 协同 过 滤 推 荐 质量 评价 方法 RQE-EDKL(recommendation quality evaluation 
based on empirical distribution and KL divergence), RQE-EDKL 首先 利用 历史 用 户 -商品 数据 生成 不 同 商品 数量 下 的 商品 
历史 使 用 概率 分 m 然后 ,利用 该 分 布 与 各 个 协同 过 滤 推 荐 方法 得 到 的 用 户 商品 使 用 概率 进行 比较 ,计算 其 KL 散 度 ; 
最 后 ， 将 KL 散 度 最 小 的 推荐 结果 视 为 最 佳 推 荐 结果 并 推送 给 用 户 。 在 TalkingData 数据 集 上 的 实验 结果 表明 ，RQE- 
EDKL 评价 方法 wan 吉 果 中 选择 更 为 切合 用 户 真实 需求 的 推荐 结果 ， 从 而 提高 了 协同 过 滤 推 荐 的 
质量 。 
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Abstract: How to evaluate the quality of collaborative filtering recommendation is a problem worth study. This paper proposed 


an approach called RQE-EDKL (recommendation quality evaluation based on empirical distribution and KL divergence) to 
evaluate the recommendation quality based on empirical distribution and KL divergence. QE-EDKL firstly made use of historical 
user-item data to produce the historical usage probability distribution of items at different quantities. Secondly, it calculated the 
KL divergence based on the distributions of the historical usage probability and the usage probability of different 
recommendations. Thirdly, it regarded the recommendation with the minimum KL divergence as with the best quality and is 
recommended to the user. Experiments on TalkingData App data sets demonstrate that ROE-EDKL can effectively improve the 
quality of recommended results of collaborative filtering significantly on both accuracy and diversity. 
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推荐 系统 建立 在 足够 的 用 户 数据 基础 之 上 ， 将 用 户 与 最 合适 的 
品 或 者 服务 进行 匹配 。 对 于 普通 用 户 来 说 ， 推 荐 系统 为 用 户 


随 着 互联 网 普及 率 的 不 断 提 升 ， 越 来 越 多 的 用 户 通过 各 种 ”推荐 感 兴趣 的 物品 ， 能 够 实现 “一 对 一 ”服务 ， 甚 至 通过 


户 处 


缺少 自动 为 用 户 推荐 感 兴趣 内 容 的 功能 。 为 了 解决 这 个 问题 ， 获取 的 利润 也 就 越 高 。 所 以 , 电子 商务 网 站 、 社 交 软 件 、 视 
推荐 系统 应 运 而 生 , 通过 对 用 户 画像 以 及 用 户 行为 数据 的 分 析 ， 音频 播放 网 站 等 都 引入 了 推荐 系统 ， 为 用 户 提供 个 性 化 的 选择 


为 用 


户主 动 推送 其 可 能 感 


x 


BWAR, ERA RE. ER Ul, 而 据 VentureBeat 统计 ,Amazon 的 推荐 系统 为 其 提供 ] 
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录用 稿 张 X, €: 基于 经 验 分 
的 商品 销售 额 中 。 基于 上 述 分 析 ， 本 文 提出 了 一 种 基于 经 验 分 布 和 KL 散 度 
前 对 推荐 算法 的 研究 十 分 丰富 ， 主 要 包括 基于 规则 的 推 ” 的 协同 过 滤 推 荐 质量 评价 方法 RQE-EDKL。 其 基本 思想 是 , 将 
荐 算法 、 基 于 内 容 的 推荐 算法 、 基 于 协同 过 滤 的 推荐 算法 、 矩 ”经 验 分 布 引入 推荐 算法 之 中 ， 利 用 KL 散 度 Kullback-Leibler 
阵 分 解 推荐 算法 等 。 而 协同 过 滤 凭借 自身 易 实现 ， 推 荐 准确 率 divergence)02] 衡 量 传统 推荐 算法 的 推荐 结果 分 布 与 经 验 概率 分 
较 高 的 特点 ， 受 到 了 学 术 界 及 工业 界 的 广泛 青睐 。 基 于 协同 过 布 的 相似 性 ， 从 而 为 最 终 用 户 过 滤 最 为 可 信 的 推荐 结果 。 与 一 
滤 的 推荐 分 为 两 种 ， 一 是 基于 用 户 的 协同 过 滤 推荐 gj， 二 是 基 般 的 推荐 准确 度 评价 指标 不 同 ,本文 提出 的 基于 经 验 分 布 和 KL 
于 物品 的 协同 过 滤 推 荐 外 。 前 者 的 本 质 就 是 为 用 户 推荐 与 相似 散 度 的 协同 过 滤 推 荐 质量 评价 方法 RQE-EDKL 提供 了 更 为 科 
的 用 户 使 用 或 者 使 用 过 的 商品 ， 后 者 的 本 质 就 是 为 用 户 推荐 与 。 ”学 的 度量 手段 ， 将 统计 学 中 的 概率 分 布 引入 ， 增 加 了 对 用 户 信 
他 已 经 使 用 的 商品 相似 的 商品 。 以 协同 过 滤 推 荐 算法 为 基础 ， 。 息 以 及 物品 信息 的 利用 程度 。 
很 多 学 首都 对 其 进行 了 相应 改进 。 改 进 的 方向 主要 有 两 个 ， 一 i Jaen 
是 用 不 同 的 方式 对 相似 度 进 行 衡 量 。 在 该 研究 方向 上 , Nikolaos 
等 人 加 提出 了 基于 协同 过 滤 的 多 层 推荐 算法 ， 在 衡量 用 户 与 用 11 推荐 问题 陈述 
户 、 物 品 与 物品 之 间 的 相似 度 时 ， 对 常用 的 皮尔 森 (PCC) 相 假设 在 存在 着 m 个 待 推荐 物品 (vss vss v, 和 4 个 
关系 数 得 到 的 相似 性 排序 分 成 不 同等 级 ， 每 个 等 级 增加 相应 的 。 用 户 {0,44}. m end 
限制 条 件 以 此 来 增加 相似 度 衡量 的 准确 性 进而 提升 推荐 效果 。 的 历史 使 用 用 户 集合 为 UG) = at, IT 
王 付 强 等 人 四 提出 了 一 种 基于 位 置 的 非 对 称 相似 性 度量 的 协同 dat d fg) 3 E E h 
过 滤 推 荐 算法 (LBASCF), 将 余弦 相似 性 与 基于 位 置 的 相似 性 融 
合 ， 得 到 一 个 新 的 非 对 称 用 户 相似 性 ， 融 合 后 的 相似 性 能 够 同 。 “中 -ti Vio Yi。 目前 主流 的 推荐 算法 的 做 法 
时 反映 用 户 在 位 置 上 和 兴趣 上 的 偏好 。Choim 等 人 在 通过 物品 是 利用 物品 的 历史 使 用 记录 U(v;) 和 j 户 已 经 使 用 的 物品 集 
衡量 用 户 相 似 性 时 ， 考 虑 所 有 物品 与 目标 物品 的 相似 程度 ， 物 。” 合 V(u,) ， 来 为 某 个 给 定 用 户 U (LUE s S n) 推荐 可 能 感 兴趣 
品 与 目标 物品 越 相似 ， 在 衡量 用 户 相似 度 中 所 起 到 的 权重 也 就 。 的 未 使 用 的 物品 集合 V(Wj) 。 不 失 一 般 性 ,假定 集合 V(u) 的 大 
越 大 。 二 是 优化 改进 推荐 模型 ， 邓 上 晓 误 等 人 “建立 起 基于 情境 JO NL 即 lv(uj) 上 IN 。 那么 推荐 算法 的 目的 就 是 要 根据 用 
RORRRPVEREUIROSIEREEUS, RARATAN u caste ode VG ) 以 及 每 个 物品 记 的 历史 使 用 
行 聚 类 ， 并 且 引入 了 社会 网 络 理论 分 析 用 户 之 间 的 关系 ， 建 立 BARSU): KEERA u, REST RERO GUN N 个 未 使 用 
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用 户 评级 模型 


2 


P alis) 


Ej 能 


引力 ， 结 合 评价 指标 进行 评分 预 


等 人 [9 


o XIJ 


EATE Ni 


] 提 出 了 基于 奇 


行 版 本 的 共同 聚 类 算法 ， 并 使 用 它 来 构建 一 个 
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荐 算法 ， 为 每 个 用 户 和 物品 设置 一 个 关联 向 量 ， 


荐 系统 设计 


价 


销 的 决策 算法 。 
而 对 于 众多 失 
体系 , 如何 


异 值 分 解 的 联合 聚 类 算法 ， 设 
高 效 的 实时 
斯 概率 模型 
利用 用 
了 降低 计算 复杂 度 与 低 存储 开 


出 了 基于 改进 贝 叶 


户 


E 荐 算法 的 最 终 


融合 不 同 推 


荐 算法 的 结果 ,通过 一 定 的 过 


E 荐 结果 并 没有 完整 的 质量 评 


为 用 
需要 关注 的 
载 的 


对 于 单一 用 


Low-Rank-Plus-Shift 分 布 特征 0。 


的 App 集合 


而 大 多 数 App 仅 被 较 少 ) 


对 于 App 偏 


rH Z 


户 挑 选 最 为 合适 的 物品 是 多 种 推荐 入 
问题 。 


历史 记录 数 所 


同时 本 文 在 对 


RETI A PUR AR 
户 来 说 ， 其 下 载 的 App 的 “用 户 热 


， 人 少数 App 在 所 有 的 用 户 中 受 欢迎 
JP F3. 这 也 从 一 个 侧 


好 的 


E [ri] 性 


其 拥有 的 用 
特征 。 也 就 


户 的 “App 热度 ”也 服从 典 
是 说 ,无 论 一 


和 独特 性 。 


成 推荐 列表 之 后 
TalkingData 数据 集中 App 下 
现下 述 两 个 基本 事实 : 其 一 

度 ” 服 从 典型 的 
也 就 是 说 ， 单 一 用 户 所 下 载 
的 程度 很 高 ， 
看 印证 了 用 户 
其 二 是 对 于 单一 App 来 说 ， 


法 


一 个 App 


中 仅 


少数 用 


载 的 App 


的 数量 


户 在 历史 上 下 载 了 大 量 的 App， 而 大 量 用 


户 也 存在 着 


同性 


和 独特 性 。 


不 很 多 。 这 从 一 个 侧面 印证 了 App 对 于 用 


型 的 Low-Rank-Plus-Shift 
被 多 少 个 用 户 下 载 ， 这 些 用 
户 所 下 


户 


体 分 析 见 本 文 4.1 部 分 。 
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HvU) € (v,...., 
基于 用 户 的 协同 过 滤 推 荐 算法 (User-CF) 


Vn V. s 


z& jJ 


= 的 协 


先是 找到 与 


标 用 户 相 


同 过 滤 推荐 算法 可 以 分 为 以 下 两 个 步 双 : 
以 的 用 户 集合 ; 


其 次 是 找到 这 


用 户 喜欢 的 ， 


HHH 
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APRA RRT m. 4 


间 的 相似 度 时 ， 可 以 采用 和 


弦 相 似 度 方法 。 对 于 


用 户 u V 和 用 


P uU, Xit V(U) 表示 


V(u,) 表示 


Ly AE Wi 为 


- IV Gs) 


Ius 


在 得 到 用 户 


p(u,v)- 


之 间 的 相似 度 针 


1P u, 使 用 过 


Ve) Q5) 


用 户 u EHR 


的 物品 的 集合 。 那么 用 广 


MV(u,) m 


E 阵 之 后 ， 利 用 了 如 下 的 公式 来 度量 


lm 


用 户 UW 对 物品 V 的 感 兴趣 程度 p(u, v) : 
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r 
uuo UV 


veS(u,k)^WU (i) 


-. 


其 中 : S(u,k) 指 的 是 和 用 户 uc 兴趣 最 为 相近 的 大 个 用 户 的 
集合 ，U(V) 是 对 物品 V 有 过 行为 的 用 户 的 集合 ， Wau 是 用 户 
Uu, 和 用 户 Uy 的 兴趣 相似 程度 ， 克 ,表示 用 户 Uo, 对 物品 V 的 
感 兴趣 程度 ， 因 为 使 用 的 是 单一 行为 的 隐 反 馈 数据 ， 所 以 所 有 
的 iy) 三 工 .通过 上 述 公 式 能 够 得 到 目标 用 户 通 过 与 它 最 为 相 
似 的 前 .7 个 不 同 用 户 与 所 有 物品 相互 联系 的 兴趣 度 乙 值 ， 最 
dead 值 相 加 ， 就 能 得 到 用 户 对 每 个 物品 的 兴趣 度 ， 根 据 
兴趣 度 的 大 小 对 App 进行 排序 ， 形 成 最 终 的 推荐 序列 。 

1.8 ”基于 物品 的 协同 过 滤 推 荐 算法 (ltem-CF) 

基于 物品 的 协同 过 滤 假设 的 是 人 们 会 喜欢 和 他 之 前 使 用 过 
的 物品 相似 的 物品 。 这 种 推荐 算法 也 分 为 两 步 。 第 一 步 是 计算 
沟 品 之 间 的 相似 度 ， 第 二 步 是 根据 物品 之 间 的 相似 度 和 目标 用 


= 


户 的 历史 行为 给 用 户 推 荐 可 能 感 兴趣 的 物品 。 对 于 物品 Vi 和 


之 间 的 相似 度 W, ,可 以 如 下 定义 


5 lU (v,) MU (v, )| 
Wy, (3) 
IU Cv ||U (v;) 


其 中 : U (Vi) 为 使 用 物品 vi 的 用 户 数量 ，U(V, ) 为 使 用 了 物 
品 V, 的 用 户 数 量 ， 则 分 子 是 既 使 用 了 物品 v, 又 使 用 了 物品 


V» 的 用 户 的 集合 。 在 得 到 所 有 物品 两 两 之 间 的 相似 度 之 后 ， 
分 析 用 户 使 用 的 每 个 物品 ， 取 与 每 个 物品 相似 度 最 高 的 前 工 个 
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该 用 户 未 使 用 的 物品 ， 将 相似 度 求 和 就 是 用 户 对 每 个 物品 的 感 
兴趣 程度 ， 最 后 根据 用 户 感 兴趣 程度 的 大 小 对 物品 进行 排序 ， 
形成 推荐 序列 。 
14 基于 用 户 和 物品 的 联合 协同 过 滤 算法 (K-UNN) 


Verstrepen 等 人 [93 提出 将 基于 用 户 和 基于 物品 的 协同 过 滤 


算法 结合 在 一 起 , 基于 最 近邻 理论 提出 了 一 种 融合 算法 K-UNN. 


该 算法 针对 的 是 布尔 类 型 的 数据 ，Pan 等 人 [4 将 这 种 模式 称 之 
为 OCCF (one-class collaborative filtering), K-UNN 算法 将 基于 
用 户 和 基于 物品 的 协同 过 滤 推 荐 算法 进行 加 权 求 和 ， 其 计算 公 
式 如 下 : 

stuvi) =), 2 LNG Su vu, v) — (y 

uy €U vaeV 

其 中 : s(u,v) 是 用 户 U 对 物品 V 的 喜好 程度 ，U; 代表 用 户 集 
合 U 中 第 j 个 用 户 ，v; 代 表 物 品 集合 V mA TAI. 
L N, G S 为 四 个 衡量 兴趣 程度 的 不 同 维度 ， 工 代表 的 
是 用 户 对 某 种 物品 的 直接 感 兴趣 程度 ，N 代表 的 是 用 户 通过 邻 
居 的 关系 对 某 物品 的 感 兴趣 程度 ，G 代表 的 是 所 有 用 户 对 该 物 
品 的 总 体感 兴趣 程度 ,反映 的 是 用 户 的 全 局 兴趣 情况 ，S 代表 
的 是 尺度 函数 的 选择 情况 ， 可 以 根据 实际 情况 进行 调整 。 

2 基于 经 验 分 布 和 KL 散 度 的 协同 过 滤 推 荐 质量 评 

价 方法 (RQE-EDKL) 


2.1 用 户 使 用 的 物品 的 经 验 分 布 
推荐 算法 的 关注 点 大 多 集中 在 用 户 和 用 户 使 用 的 物品 之 间 


n CA 合集 3L 


Chir 
K à, $ :基于 经 验 分 布 和 KL RAL DEL RE 


的 选择 关系 上 ， 而 较 少 对 物品 集合 本 身 的 用 户 分 布 进行 分 析 。 


物品 作为 被 推荐 的 对 象 ， 其 本 身 包含 着 很 多 具有 重要 参考 意义 
的 信息 ， 而 每 个 物品 被 多 少 用 户 选 择 过 就 是 其 中 重要 的 一 项 。 


用 户 使 用 的 物品 集合 


Eu 


Se 


在 统计 某 个 用 户 Wj 合 


| 的 物品 集合 的 分 布 情况 时 , 首先 计算 该 


中 的 每 个 物品 在 所 有 用 户 的 信息 中 的 被 使 


JUGE, cu,…Cw， 其 中 C 代表 的 是 物品 w 的 总 体 被 使 


次 数 。 其 次 ， 将 该 用 户 使 用 的 所 有 物品 的 出 现 次 数 置 于 不 同 


的 等 距 区 间 之 内 ， 区 间 的 数量 我 们 规定 为 10 ， 原 因 在 于 通过 


多 次 实验 后 发 现 ， 当 


区 间 数 量规 定 为 10 时 ,实验 效果 最 好 。 也 


就 是 说 , 将 用 户 Uj 安装 的 App 根据 被 安装 的 总 体 次 数 按照 从 大 


到 小 的 顺序 E T 10 个 等 距 区 Hn 
max min max min max min 
max max vj Hu C, j max 6 m C, l max vj E C fi T l 
[c, C, Me, ip em ), 
10 ] 10 f 10 
max min 
max 9* 6 H 6 +l min 
[c, T 10 Yj ] 


中 。 最 后 ， 统 计 每 个 区 间 的 物品 数量 


num 


CLE cm inq pA omm Qd CAE HA Aq ? 
[cmax cmax _ j ) [cm j i ma s "ij j 
j j 10 j 10 10 
SHE c a 
—9* nm 
[ 9 而 C; ] 
在 用 户 使 用 的 物品 的 总 数量 d up 所 占 的 比例 
num max min num max min max min 
FEE uoi NEC ol Cyr =i El 
eean J vj [em™= J vj o 一 2 J Ji 
y M 10 J 10 J 10 
H 
Vas IVa | 
num max _ „min 
max ox "j 7 vj+l min 
[cv "i ] 
| (uj) | 
作为 该 用 户 使 用 的 物品 的 概率 分 布 。 


单个 用 户 使 用 物品 的 经 验 分 布 指 的 是 该 用 户 使 用 的 物品 在 
不 同 区 间 上 物品 数量 的 概率 分 布 ， 如 表 2 中 的 第 三 列 所 示 ， 即 
为 某 用 户 使 用 App 的 经 验 概率 分 布 。 标准 经 验 分 布 指 的 是 综合 
使 用 了 相同 数量 物品 的 用 户 在 不 同 区 间 上 物品 数量 的 概率 分 布 ， 


如 表 2 中 第 5 列 所 示 ， 即 为 安装 了 12 个 App 的 用 户 的 标准 经 


伶 分 布 。 值 得 注意 的 是 ， 经 验 分 布 是 离散 概率 分 布 。 


Al 


某 用 户 App 的 安装 情况 


App 编号 c 所 属 区 间 


又 间 编 号 App 编号 c 所 属 区 间 区 间 编 号 


1 70 [68, 76) 
2 55 [52, 60) 


3 67 [60, 68) 


3 7 34 [28, 36) 8 
5 8 79 [76, 84) 2 
4 9 75 [68, 76) 3 
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4 12 [12,20) 


5 87 [84,91] 


6 89 [84,91] 


10 0 81 [76,84) 2 
1 1 45 [44, 52) 6 
1 2 91 [84,91] 1 


通过 上 述 方法 ， 


该 用 户 总 计 安装 了 


多 的 App 编号 为 12， 


TUS 12. E c 的 值 分 
[20, 28). [28,36). [36,44). [44, 52). [52,60). [60,68). 
[68, 76) . [76, 84) . [84, 91] ;每 个 区 间 的 App 数量 在 用 户 安装 


的 App 总 数量 中 所 占 比 习 


1| 
Li 


E| 
ES] 


可 以 为 安装 了 不 同 数量 App 的 用 户 生成 不 
同 的 经 验 分 布 。 举 例 来 说 ， 表 1 是 某 用 
H c 的 值 代表 着 该 App 在 所 有 
12 个 App， 其 中 在 所 有 用 户 中 出 
B 现 次 数 为 91; 最 少 的 编号 为 4， 出 现 次 
上 为 等 距 的 10 个 区 间 ， 分 别 为 [12, 20) 、 


户 App 的 安装 情况 ， 其 
表 可 知 ， 
现 次 数 最 


户 中 被 安装 的 次 数 。 


及 安装 了 该 数量 的 App 的 标准 分 布 


情况 见 表 2。 将 该 分 布 
装 的 App 的 经 验 分 布 与 该 数量 级 下 的 标准 用 


区 


化 后 表示 为 图 1, 在 图 1 中 , 用 户 安 
户 分 布 通过 两 条 折 


Chin 


hindiya fE, 
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co 


3 » 
v(uj)o 


… Pisa, IEP Puy 指 的 是 为 用 


荐 的 第 4 个 


储 荐 列表 物品 的 


j 户 WU， 标 准 分 布 50，) 进行 比较 计算 其 


同 推荐 算法 的 


为 相似 的 


的 用 户 使 用 的 


E 4) fri] 


数量 


是 使 用 


绝 品 的 用 户 进行 


个 数量 级 中 的 每 个 用 
欧 品 进行 合并 ， 此 时 得 到 了 


的 


— 


首先 


| ， 采 用 的 是 3.1 中 提出 


户 分 布 情况 。 将 该 分 布 与 事先 设 


相似 性 ， 在 集成 不 


E 荐 结果 的 基础 之 上 选择 与 历史 用 户 经 验 分 布 最 
售 荐 结果 ， 以 提高 推荐 的 准确 率 。 
a) 计 算 标准 分 布 。 在 计算 标 } 
欧 品 的 标准 分 布 的 方法 。 


m ^ 并 得 到 {lins Uns Uy } , 该 集合 指 的 


需要 将 使 用 ] 


的 物品 数量 都 为 nn 的 总 计数 量 为 P 的 
户 使 用 的 物品 进行 提取 ,并 对 所 有 


所 有 出 


4 户 的 集合 ,对 音 
TIS 
现 的 物品 的 集合 


线 表 示 。 {Vim Vago o Vym】, 该 集合 指 的 是 使 用 的 物品 数量 都 为 I 数 
表 2 某 用 户 安装 的 App 的 区 间 分 布 及 标准 分 布 - "T E | 
区 间 编号 HRW App 数量 。 所 占 比 重 “标准 分 布 区 间 App 数量 “所 占 比重 A E E E 
3.1 中 提 到 的 用 户 使 用 的 物品 的 分 布 计算 方法 计算 标准 分 布 ， 
d ss 2 ins 根据 App 的 总 体 安装 次 数 划分 10 个 等 距 区 间 ， 将 每 个 App Bi 
2 2 0.17 51 0. 18 于 其 所 属 区 间 之 内 , 这 10 个 等 距 区 间 即 为 安装 了 该 数量 的 App 
3 2 0.17 42 0.15 的 用 户 的 对 照 区 间 ， 也 就 是 说 ， 根 据 用 户 安 装 的 App 数量 的 不 
gus ši gan 同 可 以 对 应 找到 不 同 的 标准 分 布 , 图 2 中 的 S 即 为 用 户 1 使 用 
" T" 的 物品 数量 对 应 的 标准 分 布 。 
e 4 oo b) 利 用 不 同 的 推荐 算法 形成 不 同 的 推荐 列表 ， 计 算 推荐 列 
表 的 用 户 使 用 物品 的 经 验 分 布 。 本 文采 用 第 2 节 基 于 用 户 的 协 
í ° : él OOT ， 同 过 滤 推 荐 算法 (UserCF)、 基 于 物品 的 协同 过 滤 推 荐 算法 
is B Min (tem-CF) 和 基于 用 户 与 物品 的 联合 协同 过 滤 推 荐 算法 (K-UNN) 
9 0 0 8 0. 03 作为 基准 推荐 算法 。 利 用 这 三 种 推荐 算法 形成 三 种 推荐 列表 ， 
10 0. 08 8 0. 03 采用 3.1 中 提出 的 用 户 使 用 的 物品 的 经 验 分 布 计算 方法 ， 计 算 
不 同 推荐 算法 为 用 户 形成 的 推荐 结果 的 用 户 分 布 。 
某 用 户 使 用 App 的 经 验 分 布 计算 三 种 算法 得 到 的 推荐 列表 的 用 户 分 布 与 物品 的 标准 
T 用 户 分 布 之 间 的 KL 距离 。KL EREA, 本质 上 是 
0.25 一 种 概率 分 布 ， 衡 量 的 是 相同 空间 事件 中 两 个 概率 已 和 ,8 分 
0.2 布 的 差异 情况 , KL 距离 越 小 ， P 和 8 的 分 布 也 就 散 度 越 相似 。 
0.15 对 于 离散 分 布 来 说 ， 从 5S EP 的 KL 距离 计算 公式 如 下 ; 
0.1 
N P(u.) 
0.05 D = f 2 
; «(P |S) 2, Prog SQ) (5 
J 2 3 4 5 6 7 8 9 10 
一 一 某 用 户 安装 App 的 分 布 “一 @ 一 标准 分 布 这 里 的 (wj) 指 的 是 用 户 Uj 使 用 物品 的 经 验 分 布 ， 
o S Coa) 指 的 是 根据 用 户 U 使 用 的 物品 的 数量 匹配 到 的 该 数量 
22 ”推荐 结果 质量 评价 
本 文 在 对 基于 经 验 分 布 和 KL 散 度 的 协同 过 滤 推 荐 质量 评 ”下 的 标准 经 验 分 布 ，WN 指 的 是 为 用 户 推荐 的 物品 的 数量 。 
价 进行 研究 时 ， 将 统计 学 中 的 概率 分 布 引入 ， 在 得 到 不 同 推荐 在 这 里 使 用 式 (5) 来 计算 标准 分 布 与 基准 推荐 算法 形成 经 


算法 的 推荐 列表 V(Uj) 之 后 ， 统 计 推荐 的 物品 的 用 户 分 布 情况 


验 分 布 之 间 的 KL 距离 ， 


以 表 2 中 的 数 扩 


虽 为 例 ， 可 以 得 到 
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录用 稿 张 x, 
Pu) 025 事件 中 包含 着 用 户 的 行为 时 间 信息 (具体 到 秒 为 单位 ), 用 户 此 
Da (PNS)= Y Pu) se E TE 时 正在 使 用 的 App (包括 了 后 台 开 启 行为 )。 在 对 用 户 的 行为 次 
) l 数 进行 了 统计 、 排 序 之 后 ， 为 了 尽量 减少 数据 稀疏 性 带 来 的 影 
017*1og X... 0.08195 005, 7 响 ， 本 文选 择 了 行为 次 数 在 so0—1000 的 总 计 2020 名 用 户 作 
0.18 03 为 实验 数据 集 。 其 原因 是 这 些 用 户 的 行为 次 数 处 于 所 有 用 户 行 
为 次 数 的 中 间 ， 行 为 较为 规律 且 相 对 比较 稳定 ， 既 不 会 固守 已 
GREG, FR u, SORS 12 个 App 的 经 验 分 布 写 12 个 App 数值 用 的 App 不 变 也 不 会 进行 盲目 跟风 使 用 ,数据 相对 来 说 
量 级 的 标准 分 布 之 间 的 KL 散 度 为 0. 27。 有 代表 性 。 而 这 2 020 名 用 户 中 ， 有 250 名 用 户 使 用 的 App 数 
d) 选择 KL 距离 最 小 的 用 户 分 布 对 应 的 推荐 列表 作为 推荐 。 量 小 于 10, 对 于 App 的 推荐 来 说 , 这 些 用 户 本 身 的 信息 不 足以 
结果 质量 最 好 的 推荐 算法 ， 形 成 用 户 的 最 终 推荐 。 因此， 为 用 。 产生 合理 的 推荐 ， 所 以 剔除 这 250 名 用 户 ， 选 择 余下 的 1 770 
记过 滤 KL 距离 较 大 的 分 布 对 应 的 推荐 结果 ， 选 择 KL 距离 最 。“” 名 用 户 作为 本 文 的 实验 对 象 。 对 这 1 770 名 用 户 的 个 人 信息 、 
小 的 分 布 对 应 的 推荐 结果 是 本 文 提出 的 基于 经 验 分 布 和 KL 散 ”动态 行为 进行 汇总 后 ， 作 为 本 文 研究 的 实验 数据 集 。 
度 的 协同 过 滤 推 荐 质量 评价 方法 所 给 出 的 最 佳 推荐 结果 。 所 述 如 图 3 所 示 ， 某 用 户 下 载 的 App 编号 的 集合 关 
四 个 步骤 的 流程 图 如 图 2 所 示 。 {112,3,4,5,6...}， 总 计 63 个 App。 这 些 App 在 历史 上 被 所 有 用 
p 户 下 载 的 次 数 服从 典型 的 Low-Rank-Plus-Shift 4j5U 9. 尽管 该 
OD 计算 标准 分 布 i | KL i» 用 户 下 载 了 63 个 App， 但 是 从 图 3 可 以 看 出 ， 仅 有 10 个 
( wm) | (16%)App 在 历史 上 拥有 大 于 或 等 于 700 的 下 载 量 ， 其 余 53 个 
| em RMAN p DO — (84%)App 的 下 载 量 均 小 于 700. 
1500 
图 2 基于 最 近邻 和 经 验 分 布 的 协同 过 滤 推 荐 算法 流程 图 nil 
ax 1000 
3 ”实验 过 程 及 结果 
& 500 
3.1 实验 数据 E : 


实验 数据 来 自 Kaggle 


网 站 〈http:/www.kaggle.com ) | 


TalkingData 大 数据 公司 提供 的 关于 安 卓 手机 用 户 使 用 App 的 
真实 信息 。 其 中 包括 了 将 近 8 万 名 安 卓 手机 用 户 的 性 别 、 年 龄 
段 、 使 用 的 手机 品牌 及 型 号 等 用 户 画 像 信 息 。 以 及 从 2016 年 5 
月 1 日 至 2016 年 5 月 7 日 一 周 的 用 户 地 理 位 置 、 手 机 App 下 
载 、 使 用 及 类 别 等 动态 信息 ， 总 计 3000 余 万 条 。 出 于 对 用 户 隐 
私 安全 的 考虑 ， 数 据 中 每 个 用 户 都 被 以 一 个 唯一 的 编号 代表 。 
表 3 TalkingData 数据 集中 用 户 行为 排 在 前 10 名 的 用 户 信息 
编号 行为 次 数 编号 行为 次 数 
1 4150 11 1915 
2 3973 12 1749 
3 3907 13 1686 
4 3128 14 1519 
5 2899 15 1511 
6 2757 16 1493 
7 2722 17 1444 
8 2347 18 1368 
9 2310 19 1364 
10 2023 20 1363 
在 进行 实验 时 ， 由 于 数据 量 庞大 ， 为 了 推荐 实际 结果 的 可 
用 性 起 见 ， 本 文 对 上 述 数 据 进行 了 第 选 。 在 原始 数据 中 ， 用 户 
每 次 对 App 产生 行为 时 就 会 自动 生成 一 次 事件 , 这 些 行为 包括 
利用 App 接 入 互联 网 、 使 用 新 的 App、 删 除 旧 的 App 等 等 。 该 


也 服从 典型 的 Low-Rank-Plus-Shift 特征 。 
App 被 多 少 个 
载 了 大 量 
这 从 一 个 侦 
如 图 
总 计 114 名 用 户 ， 也 就 说 是 ， 该 App 被 114 名 


1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 


App 编 号 


"d 


图 3. 某 用 户 下 载 的 App 历史 下 载 
其 二 是 对 于 单一 App 来 说 ， 其 拥有 的 用 户 的 “App 热度 ” 
也 就 是 说 ， 无 论 一 个 
载 ， 这 些 用 户 中 仅 有 少数 用 户 在 历史 上 下 
的 App， 而 大 量 用 户 所 下 载 的 App 的 数量 并 不 很 多 。 
I 面 印证 了 App 对 于 用 户 也 存在 着 共同 性 和 独特 性 。 
4 所 示 , di App 历史 上 被 下 载 的 用 户 集合 为 {1,2,3,4,5,6...} 
JP FAR. XXe 


图 


— 


HFF 


用 


户 在 历史 上 所 下 载 的 App 的 数量 服从 典型 的 Low-Rank-Plus- 


Shift 分 布 。 从 图 4 中 可 以 看 出 ， 仅 有 
E o m 


25 名 用 户 (22%) 在 历史 上 
其 余 89 名 用 户 (78%) 的 App 


下 载 量 均 不 超过 


用 户 使 用 的 App 数 量 


了 Appl7 的 


IP" PARE] App 的 数量 


录用 稿 


3.2 评价 指标 

3.8 ”准确 性 指标 

在 衡量 每 种 推荐 算法 的 推荐 准确 性 效果 时 ， 本 文采 用 
领域 中 广泛 应 用 的 两 种 推荐 结果 评价 指标 : 其 一 是 MAP(mean 
确 率 均值 ， 其 二 是 MRR(mean 
reciprocal rank)， 即 排序 倒数 均值 0。 具体 如 下 所 示 : 


s 
言 息 检 索 


average precision)， 即 平均 


chinaXiv:201805.00480v1 


1 Q 
MAP = — Y AveP(q) (6) 
Q q=1 
Q 是 测试 集中 用 户 的 数量 ， 
ek 
ta rank, 
AveP(q) = ————- (0) 
(q) " 
N 为 推荐 的 App 应 用 的 数量 ，7Q1IK; 为 App NU v, 的 推荐 排 
k 
FME, 为 App 应 用 六 期 望 推荐 排序 位 置 有 与 推荐 排 
rank, 
序 位 置 rank, 的 比值 。 
14 1 
MRR = — (8) 
Q T rank, 


这 两 项 指标 计算 相对 简单 , 衡量 效果 较 好 。MAP 值 是 一 项 
反映 系统 在 全 部 相关 文档 上 性 能 的 单 值 指标 。 系 统 推 荐 出 来 所 
相关 结果 越 靠 前 ，MAP 就 越 高 。 如 果 系 统 没 有 返回 相关 结果 ， 
则 MAP 值 默认 为 0。MRR 值 是 把 标准 结果 在 被 评价 系统 给 出 
结果 中 的 排序 取 倒数 作为 它 的 准确 度 , 再 对 所 有 的 结果 取 平 均 ， 
可 以 作为 衡量 推荐 结果 的 一 项 重要 指标 。 当 采用 不 同 的 算法 为 
用 户 推荐 App 时 , 将 每 种 算法 产生 的 推荐 App 进行 排序 , 然后 
计算 MAP 和 MRR 值 ， 用 户 真正 感 兴趣 的 App 排 在 前 面 时 ， 
MAP 值 和 MRR 值 会 比较 高 ， 推 荐 效果 也 就 比较 好 。 

3.4 新 颖 性 和 多 样 性 衡量 指标 
推荐 的 新 颖 性 指 的 是 为 用 户 推荐 那些 他 们 从 未 听 说 的 物品 或 者 
服务 的 能 力 。 推 荐 的 多 样 性 包括 个 体 的 多 样 性 和 总 体 的 多 样 
性 ， 其 中 个 体 的 多 样 性 是 指 对 单个 用 户 而 言 ， 推 荐 系统 为 其 产 
推荐 列表 中 物品 的 多 样 性 ， 提 高 个 体 多 样 性 可 以 解决 推荐 
列表 内 部 各 项 目 相似 度 高 的 问题 09;， 总 体 多 样 性 是 指针 对 不 
同 用 户 的 推荐 应 尽 可 能 得 不 同 [171。 
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NOV, (v) * — Y. dv. v,) (9) 
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其 中 :到 是 与 用 户 有 交互 的 物品 的 集合 ，C 是 App 应 用 V 被 用 


户 下 载 的 次 数 ，d (yw ,V，) 为 距离 测量 函数 ， 


来 衡量 App 应 
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] V， 与 App 应 用 V， 之 间 的 相似 程度 。 


而 关于 多 样 性 的 衡量 ， 本 文 只 考虑 个 体 的 多 样 性 
指标 为 内 部 列表 距离 ILDIU91， 其 公式 如 下 : 
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Kup: sim(v,;.v,,) 为 App 应 用 VV 与 App IF V „ 的 相似 性 ， 
|V(w) | 是 用 户 wu 安装 的 App 的 数量 。 

3.5 实验 设置 及 结果 
本 文 在 进行 实验 时 采用 了 基于 用 户 的 协同 过 滤 推 荐 算法 、 基 于 
萄 品 的 协同 过 滤 推 荐 算法 以 及 基于 用 户 和 物品 的 联合 协同 过 滤 
推荐 算法 作为 基准 算法 。 本 文 提出 的 基于 经 验 分 布 和 KL 散 度 
的 协同 过 滤 推 荐 质量 评价 方法 在 这 三 种 推荐 算法 的 推荐 列表 基 
础 之 上 进行 KL 计算 得 到 最 佳 推荐 列表 。 有 具体 来 说 ， 实 验 分 为 
两 个 部 分 , 第 一 部 分 是 固定 测试 集 的 比例 尺 ， 不 断 调整 测试 时 
每 个 用 户 遮 盖 的 App 的 数量 KK X K 的 值 由 2 开始 ， 以 2 
为 间隔 ， 增 加 至 10。 第 二 部 分 是 固定 用 户 遮 盖 的 App 的 数量 
K ,将 测试 集 的 比例 尺 由 5% 开 始 , 以 5% 为 间隔 ,增加 至 25%。 
在 第 一 部 分 实验 中 ， 为 了 计算 简便 起 见 ， 本 文 设 定 测试 集 的 比 
例 为 5%， 即 从 1770 名 用 户 中 随机 抽取 90 名 形成 测试 集 ， 剩 余 
的 1680 名 用 户 形成 训练 集 。 在 实验 过 程 中 , 不 断 变 化 测 i 
每 个 用 户 遮 盖 的 App 数量 KK， 从 2 开始 ， 以 2 为 间隔 ,增加 至 
10， 这 个 过 程 中 被 遮盖 的 App 的 选择 都 是 随机 的 。 根 据 本 文 提 
出 的 RQE-EDKL 法 ， 首 先 利 用 训练 集中 的 用 户 使 用 的 App 的 
信息 进行 标准 分 布 的 计算 。 接 着 针对 测试 集中 的 90 名 用 户 , 分 
别 利 用 User-CF., Item-CF, K-UNN 算法 得 到 相应 的 三 个 不 同 的 
荐 列表 。 对 于 每 个 测试 用 户 来 说 ， 这 三 个 推荐 列表 实质 上 是 
依据 不 同 的 标准 对 所 有 用 户 未 使 用 的 App 进行 排序 , 排序 的 标 
准 就 是 用 户 的 感 兴趣 程度 。 

为 了 与 现实 情况 相符 合 , 本 文 并 未 选取 所 有 被 推荐 的 App 进行 
分 布 计算 ， 而 是 将 每 个 推荐 列表 的 前 20 个 App 作为 新 的 最 终 
E 荐 列表 。 对 于 上 述 随机 选取 的 90 名 测试 用 户 , 本 文 首先 对 每 
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本 文采 用 的 Hurley 等 人 0 提出 的 对 新 颖 性 的 衡量 方式 ， 其 
公式 如 下 : 


个 用 户 采 用 


了 三 种 不 同 的 推荐 算法 形成 了 新 的 推荐 列表 ， 接 着 
计算 每 种 算法 的 App 分 布 与 标准 分 布 之 间 的 KL 距离 ,选择 KL 
距离 最 小 的 推荐 算法 结果 作为 本 文 提出 的 RQE-EDKL 方法 的 
推荐 结果 ， 最 终 形成 一 个 新 的 推荐 列表 ， 该 列表 就 是 本 文 推荐 
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录用 稿 
方法 的 最 终结 果 。 由 于 部 分 测试 用 户 使 用 的 App 数量 未 能 在 训 1 1 
练 集中 找到 对 应 的 标准 分 布 ， 于 是 本 文选 择 了 用 户 使 用 的 真实 i | 38 | 
App 数量 及 其 前 后 两 个 数量 的 标准 分 布 即 5 个 标准 分 布 融合 后 。 qe C wEEdC——A 
的 用 户 分 布 作为 新 的 标准 用 户 分 布 。 最 后 对 比 该 列表 以 及 基准 $, 3 ， 
方法 一 User-CF、Item-CF 和 K-UNN 算法 的 推荐 列表 并 计算 
MAP 值 以 及 MRR fis. 06 0.6 
图 5 为 使 用 5% 的 实验 数据 作为 测试 集 ， 需 要 推荐 不 同 数 0 
量 App 时 , 本 文 提出 的 方法 RQE-EDKL 与 基准 方法 在 MAP 和 ü » 
MRR 指标 上 的 表现 。 从 图 S 中 可 以 看 出 ， 首先， 当 固定 测试 信 
比例 为 5% 时 ， 无 论 是 本 文 提 出 的 RQE-EDKL 方法 还 是 User- 图 6 固定 测试 集 比例 R 为 5?o4 K 值 对 应 的 NOV 值 和 ILD 值 
CF, Item-CF, K-UNN 算法 ,它们 的 MAP 值 都 在 0.5 以 上 ， 在 进行 第 二 部 分 实验 时 固定 天 值 为 8， 变 化 测试 集 用 户 数 
荐 效果 较 好 。 同 时 随 着 遮盖 的 App 数量 由 2 增加 至 10, 它们 的 。” 量 在 总 用 户 数量 中 的 占 比 ， 从 5% 开 始 ， 以 5% 为 间隔 ，25% 为 
MAP 值 和 MRR 值 都 呈现 出 明显 的 下 降 趋势 ， 也 就 是 说 ,对 用 ”结束 ， 总 计 5 个 观测 点 。 测 试 集 的 比重 尺 分 别 为 5%、10%、 
户 的 历史 App 使 用 信息 隐藏 的 越 多 ， 推 荐 效果 越 差 ， 反 之， 用 。 ”15%、20%、25%。 对 于 不 同比 例 的 测试 集 ， 本 文 都 会 利用 三 种 
户 历史 App 使 用 信息 越 完整 ， 推 荐 效果 就 越 好 。 怠 准 推荐 算法 得 到 推荐 列表 ,然后 RQE-EDKL 方法 得 到 最 终 的 
1 i i s 推荐 列表 。 以 测试 集 比 例 为 10% 为 例 ， 在 1770 名 用 户 中 随机 
09 14 选择 180 名 用 户 作为 测试 集 ， 针 对 测试 集中 的 每 个 用 户 ， 随 机 
NT à 遮盖 其 使 用 的 App 中 的 8 个 ， 不 参与 推荐 过 程 ， 而 剩 下 的 App 
$ ， ES 参与 计算 ， 最 后 将 利用 推荐 方法 得 到 的 这 180 名 用 户 每 人 感 兴 
E 趣 的 App 进行 排序 ， 用 MAP 值 以 及 MRR 值 计算 被 遮盖 的 真 
实 App 在 用 户 手机 上 的 App 在 推荐 队列 中 的 位 置 , 用 NOV fl 
0 上 €» 以 及 ILD 值 评估 推荐 的 新 颖 性 和 多 样 性 。 
K 0.8 1 
一 6 一 RQE-EDKL 一 光一 K-UNN —*— User-CF 下 一 ltem-CF 
图 5 ”固定 测试 集 比例 及 为 5%, 不 同 及 值 对 应 的 MAP 值 和 MRR (i ja 
其 次 ， 结 合 MAP 值 以 及 MRR 值 ， 从 图 中 可 以 清楚 地 看 Log PE os 
出 ， 本 文 提出 的 RQE-EDKL 方法 能 够 显著 的 改进 推荐 的 准确 。 “> 
性 。 实质 上 , RQE-EDKL 方法 利用 用 户 所 使 用 的 App 的 历史 被 
使 用 频率 的 Low-Rank-Plus-Shift 特征 ， 结 合 KL 散 度 来 度量 推 04 06 
荐 结果 质量 。 从 图 1 和 3 中 可 以 看 出 ， 用 户 所 使 用 的 App 一 般 3 
可 分 为 两 种 类 型 ， 一 类 是 热门 App, 反 映 了 用 户 的 大 众 偏好 ; 另 一 = 
一 类 为 冷门 App， 反映 了 用 户 的 个 性 化 偏好 。RQE-DEKL 方法 
本 质 上 考虑 了 用 户 在 这 两 种 类 型 App 的 使 用 方面 的 合理 性 , 也 。 ”图 7 BE K 值 为 8, 测试 集 的 不 同比 例 RR 对 应 的 MAP 值 和 MRR fit 
就 是 在 给 定 的 推荐 结果 的 前 提 下 ， 该 推荐 结果 是 否 既 包 含 了 热 
门 App 也 包含 了 冷门 App， 同 时 热门 App 与 冷门 App 的 分 布 i i 
是 否 与 经 验 分 布 一 致 。 因 此 RQE-DEKL 方法 能 够 最 大 程度 上 提 09 09 
取出 对 提高 推荐 结果 质量 的 有 用 信息 ， 实 现 推荐 效果 的 改进 。 。 > Eee 
而 在 新 颖 性 和 多 样 性 方面 ， 如 图 6 所 示 ， 本 文 提出 的 基 
RQE-EDKL 方法 效果 明显 好 于 其 它 推荐 算法 。 因 为 该 算法 考虑 0.7 0.7 
的 是 用 户 使 用 的 所 有 App 的 分 布 ， 能 够 在 最 大 程度 上 增加 为 用 a u 
"推荐 的 冷门 App 的 可 能 性 ， 从 而 在 为 用 户 推荐 中 增加 新 颖 WE EE MEL MEL EM NM ESL 
App。 同 时 通过 上 述 实 验 可 以 发 现 ， 当 被 遮挡 的 App 的 数量 K 一 6 一 RQE-EDKL —*— K-UNN —X— User-CF —— ltem-CF 
为 8 时 ， 本 文 所 考虑 的 四 种 推荐 算法 的 MAP 值 逐 渐 呈 现 出 一 
种 相对 稳定 的 趋势 。 图 8 国定 K 值 为 8, 测试 集 的 不 同比 例 RR 对 应 的 NOV 值 和 ILD f 


7 为 当 固 定 的 值 为 8， 


不 断 变 化 测试 集 RR 的 比重 时 ， 


本 文 提 出 的 RQE-EDKL 方法 与 


车 准 方法 在 MAP 和 MRR 指标 
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上 性 能 的 表现 。 从 图 7 中 可 以 看 出 ， 首 先 ， 固 定 天 值 ， 变 化 测 
试 集 的 比例 尺 ， 随 着 测试 集 的 比例 不 断 上 升 , 参与 训练 的 数据 
不 断 减 小 ，User-CF、Item-CF、K-UNN 算法 的 MAP 值 大致 ] 
也 呈现 出 递减 的 趋势 ,本 文 提出 的 RQE-EDKL 方法 在 测试 集 比 
例 为 5%、10%、15% 时 呈现 出 相对 稳定 的 状态 ,大致 在 0.65 的 
数值 水 平 上 ， 当 测试 集 比 例 为 20% 时 ，MAP 值 出 现 明显 的 上 
JF, 达到 0.75 左右 , 但 是 当 测 试 集 比例 增加 至 25% 时 , MAP 又 
到 之 前 0.65 的 数值 水 平 。 本 文 认为 , 测试 集 比例 为 20% 时 可 
以 作为 异常 点 来 看 待 ， 某 些 偶 发 因素 导致 了 MAP 值 出 现 了 波 
动 。 对 于 MRR 值 来 说 ， 变 化 趋势 并 没有 明显 的 规律 ， 当 测试 
集 比例 为 10% 和 20% 时 ， 本 文 提出 的 RQE-EDKL 方法 的 MRR 
值 出 现 两 个 小 高 峰 。 而 User-CF 只 在 RR 为 10% 时 出 现 明显 上 
升 ,而 后 呈现 下 降 趋 势 , 当 RR 取 其 他 值 时 ,除了 Ttem-CF 的 MRR 
在 测试 集 比例 为 25% 时 出 现 非 常 明显 的 下 降 之 外 ， 其 他 推荐 算 
法 都 保持 着 较为 稳定 的 状态 。 其 次 ， 不 论 训练 集 的 数量 多 少 ， 
RQE-EDKL 方法 的 推荐 性 能 基本 上 都 高 于 其 他 三 种 基准 方法 ， 
这 显示 了 该 推荐 算法 的 有 效 性 ， 无 论 训练 集 的 比例 RR 是 多 少 ， 
ER K 的 取 值 是 多 少 ， 都 能 够 得 到 较 好 的 推荐 结果 。 当 采用 
MAP 值 来 衡量 推荐 效果 时 ， 采 用 测试 集 比 例 为 20% 时 能 够 得 
到 最 好 的 效果 ， 当 用 MRR 值 来 衡量 推荐 效果 时 ， 采 用 测试 集 
EH R 为 10% 或 者 20% 时 能 够 得 到 最 好 的 效果 。 
图 8 为 当 固定 天 的 值 为 8， 不 断 变化 测试 集 的 比重 时 ， 本 
文 提 出 的 RQE-EDKL 方法 与 基准 方法 在 NOV M ILD 指标 上 性 
能 的 表现 。 从 图 中 可 以 看 出 ， 本 文 提出 的 推荐 算法 在 新 颖 性 的 
表现 上 十 分 稳定 ,稳定 在 0.85 左右 ， 波 动 较 小 且 高 于 其 他 三 种 
基准 推荐 算法 。 在 多 样 性 上 的 表现 与 其 他 三 种 基准 算法 的 表现 
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差距 相对 较 小 ， 但 是 总 体 仍旧 高 于 其 他 三 种 基准 推荐 算法 。 
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随 着 网 络 信息 的 指数 式 爆 炸 增长 ， 获 取 匹 配 用 户 需 求 的 信 
刀 成 本 不 断 增加 ， 推 荐 算法 的 改进 无 论 是 对 商品 或 者 服务 的 提 
供 商 还 是 对 于 用 户 来 说 都 可 以 节省 时 间 成 本 。 本 文 提出 了 基于 
经 验 分 布 和 KL 散 度 的 协同 过 滤 推 荐 质量 评价 方法 ,在 真实 的 安 
卓 市 场 数据 上 ， 将 它 与 基于 用 户 的 协同 过 滤 推 荐 算法 、 基 于 物 
品 的 协同 过 滤 算法 和 基于 用 户 及 物品 的 联合 协同 过 滤 推 荐 算法 
相 比较 。 实 验 结果 表明 ， 无 论 是 在 推荐 的 准确 性 还 是 推荐 结果 
的 多 样 性 方面 , RQE-EDKL 方法 的 表现 更 好 。 在 测试 集 的 大 小 
或 者 遮盖 App 的 数量 发 生变 化 时 ,都 能 够 保持 其 推荐 结果 的 稳 
定性 ,原因 就 在 于 RQE-EDKL 方法 将 统计 学 中 分 布 的 概念 融入 
到 了 机 器 学 习 中 ， 集 成 了 目前 最 为 流行 的 、 推 荐 效果 相对 较 好 
的 推荐 算法 ， 在 它们 的 基础 之 上 进行 了 改进 ， 过 滤 它 们 的 推荐 
结果 。 本 文 提 出 的 方法 在 推荐 目标 上 缩小 了 推荐 范围 ， 更 有 集 
中 性 ， 将 用 户 感 兴趣 可 能 性 大 的 物品 作为 备 选 推荐 目标 ， 综 合 
用 户 分 布 的 方法 更 进一步 进行 了 筛选 ,提高 了 推荐 结果 的 质量 。 
值得 一 提 的 是 ， 本 文 不 仅 着 眼 于 推荐 的 准确 性 ， 更 是 在 如 何 提 


高 推荐 新 颖 性 方面 有 所 创新 ， 为 用 户 提供 独特 的 、 符 合 其 私人 


Yit 


兴趣 的 物品 。 
本 文 的 未 来 研究 会 将 用 户 画 像 信息 PY 加 入 推荐 过 程 中 ,， 包 
括 用 户 性 别 、 年 龄 段 等 众多 信息 ， 为 提升 App 推荐 算法 的 性 能 
寻找 更 为 有 效 的 方法 。 


参考 文献 : 


[1] Schafer J B, Konstan J A, Riedl J. E-commerce Recommendation 
Applications [C]// Proc of Applications of Data Mining to Electronic 
Commerce. Boston: Springer, 2001: 115-153. 

[2] 刘建国 ,周涛 , IEEE. 个 性 化 推荐 系统 的 研究 进展 [J]. 自然 科学 进 
展 2009, 19 (1) 1-15. (Liu Jianguo, Zhou Tao, Wang Binghong. 
Personalized recommender systems: a survey ofthe state-of-the-art. Chinese 
Journal of Progress in Natural Science, 2009, 19 (1): 1-15. ) 

[3] Resnick P, Iacovou N, Suchak M, et al. GroupLens: an open architecture for 
collaborative filtering of netnews [C]// Proc of ACM Conference on 
Computer Supported Cooperative Work. New York: ACM Press, 1994: 175- 
186. 

[4] Sarwar B, Karypis G, Konstan J, et al. Item-based collaborative filtering 
recommendation algorithms [C]// Proc of International Conference on World 
Wide Web. New York: ACM Press, 2001: 285-295. 

[5] Polatidis N, Georgiadis C K. A multi-level collaborative filtering method 
that improves recommendations [J]. Expert Systems with Applications, 2016, 
48: 100-110. 

[6] 王 付 强 , 彭 甫 猴 , 丁 小 焕 . 基于 位 置 的 非 对 称 相似 性 度量 的 协同 过 滤 推 
荐 算法 D] 计算 机 应 用 , 2016, 36 (1): 171-174. (Wang Fuqiang, Peng 
Furong, Ding Xiaohuan. Location-based asymmetric similarity for 
collaborative filtering recommendation algorithm [J]. Journal of Computer 
Application, 2016, 36 (1): 171-174. ) 

[7] Choi K, Suh Y. A new similarity function for selecting neighbors for each 
target item in collaborative filtering [J]. Knowledge-Based Systems, 2013, 
37 (1): 146-153. 

[8] MES, 金 淳 ， 韩 庆 平 . 基于 情境 聚 类 和 用 户 评级 的 协同 过 滤 推荐 模型 
D]. 系统 工程 理论 与 实践 , 2013, 33 (11): 2945-2953. (Deng Xiaoyi, Jin 
Chun, Han Qingping. Improved collaborative filtering model based on 
context clustering and user ranking [J]. Systems Engineering-Theory & 
Practice, 2013, 33 (1): 2945-2953. ) 

[9] George T, Merugu S. A scalable collaborative filtering framework based on 
co-clustering [C]// Proc of IEEE International Conference on Data Mining. 
2005: 4. 

[10] 刘 付 和 勇 , 高 贤 强 , 张 著 . 基于 改进 贝 叶 斯 概率 模型 的 推荐 算法 [I]. 计 
算 机 科学 ,2017, 44 (05): 285-289. (Liu Fuyong, Gao Xianqiang, Zhang zhu. 
Improved Bayesian probabilistic model based recommender system [J]. 
Computer Science, 2017, 44 (05): 285-289. ) 

[11] Zha Hongyuan, Zhang Zhenyuan. On matrices with low-rank-plus-shift 
structure: Partial SVD and latent semantic indexing [J]. SIAM Journal on 


Matrix Analysis & Applications, 1998, 21 (2): 522-536. 


201805.00480v1 


chinaXiv 


录用 稿 


[12] Zeng Yifei, Doshi P, Pan Yinghui, et al. Utilizing partial policies for 
identifying equivalence of behavioral models [C]// Proc of AAAI 
Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2011. 

[13] Verstrepen K, Goethals B. Unifying nearest neighbors collaborative filtering 
[C]// Proc of the 8th ACM Conference on Recommender Systems. 2014: 
177-184. 

[14] Pan Rong, Zhou Yunhong, Cao Bin, et al. One-Class Collaborative Filtering 
[C]// Proc of the 8th IEEE International Conference on Data Mining. 
Washington DC: IEEE Computer Society, 2008: 502-511. 

[15] Zheng Zibin, Ma Hao, Lyu Michael R, et al. QoS-aware Web service 
recommendation by collaborative filtering [J]. IEEE Trans on Services 
Computing, 2011, 4 (2): 140-152. 

[16] XX, PH. 基于 新 颖 性 和 多 样 性 的 旅游 推荐 模型 研究 DI]. 计算 机 工 


42 -5 JŽ Ħ , 2016, 52 (6): 219-222. (Wang Bin, Cao Han. Research on tourism 


recommendation model based on novelty and diversity. Computer 
Engineering and Applications, 2016, 52 (6): 219-222. ) 

[17] Ziegler C N, Menee S M, Konstan J A, et al. Improving recommendation 
lists through topic diversification [C]// Proc of International Conference on 
World Wide Web. New York: ACM Press, 2005: 22-32. 

[18] Hurley N, Zhang Mi. Novelty and diversity in top-N recommendation: 
analysis and evaluation [J]. ACM Trans on Internet Technology, 2011, 10 
(4): 1-30. 

[19] Ziegler C N, Lausen G. Making product recommendations more diverse [J]. 
Bulletin of the Technical Committee on Data Engineering, 2010, 32 (4): 23- 
32. 

[20] Godoy D, Amandi A. Modeling interests of web users for recommendation: 
a user profiling approach and trends [M]// Evolution of the Web in Artificial 


Intelligence Environments. Berlin: Springer, 2008: 41-68. 


